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Le terme big data désigne l'extraction, la manipulation et l'analyse des ensembles de 
données trop volumineux pour être traités de manière routinière. Pour cette raison, des logiciels 
spéciaux sont utilisés et, dans de nombreux cas, des ordinateurs et du matériel informatiques 
dédiés. Généralement, ces données sont analysées de manière statistique. Sur la base de l'analyse 
des données respectives, des prédictions de certains groupes de personnes ou d'autres entités sont 
généralement établies, en fonction de leur comportement dans diverses situations et à l'aide des 
techniques analytiques avancées. Ainsi, les tendances, les besoins et les évolutions 
comportementales de ces entités peuvent être identifiés. Les scientifiques utilisent ces données 
pour la recherche en météorologie, génomique, connectomique, (Nature 2008) simulations 
physiques complexes, biologie, protection de l'environnement, etc. (Reichman, Jones, and 


Schildhauer 2011) 
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Avec le volume croissant des données sur Internet, dans les médias sociaux, l'informatique 
en nuage, les appareils mobiles et les données gouvernementales, le big data constitue à la fois une 
menace et une opportunité pour les chercheurs de gérer et d'utiliser ces données, tout en maintenant 
les droits des personnes impliquées. 

Définitions 

Les mégadonnées comprennent généralement des ensembles de données dont les 
dimensions dépassent la capacité logicielle et matérielle habituelle, en utilisant des données non 
structurées, semi-structurées et structurées, l'accent étant mis sur les données non structurées. 
(Dédié and Stanier 2017) La taille du big data a augmenté depuis 2012, passant de dizaines de 
téraoctets à de nombreux exaoctets de données. (Everts 2016) Travailler efficacement avec le big 
data implique l’apprentissage des machines pour détecter les modèles, (Mayer-Schônberger and 
Cukier 2014) mais ces données sont souvent un sous-produit d'autres activités numériques. 

Selon une définition de 2018, « les mégadonnées sont des données qui nécessitent des outils 
informatiques parallèles pour gérer les données », ce qui constitue un tournant dans le domaine de 
l'informatique, qui repose sur les théories de la programmation parallèle et le manque de certitude 
des modèles précédents. Le big data utilise des statistiques inductives et concepts d'identification 
des systèmes non linéaires pour déduire des lois (régressions, relations non linéaires et effets 
causais) à partir de grands ensembles de données avec une faible densité d'informations afin 
d'obtenir des relations et des dépendances ou de prédire des résultats et des comportements. 

Au niveau de l'Union européenne, il n'y a pas de définition obligatoire mais, selon l'avis 
3/2013 du groupe de travail européen sur la protection des données, 

« Le terme « mégadonnées » se rapporte à l’augmentation considérable de l’accès aux 
informations et de leur utilisation automatisée: il fait référence aux volumes gigantesques 
de données numériques contrôlées par des entreprises, des gouvernements et d’autres 
grandes organisations, qui sont ensuite analysés de façon approfondie en utilisant des 
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algorithmes. Les mégadonnées peuvent servir à établir des tendances générales et des 
corrélations, mais leur utilisation peut également toucher directement les individus ». 
(European Economie and Social Committee 2017) 

Le problème avec cette définition est qu'elle n'envisage pas de réutiliser des données 
personnelles. 

Règlement no. 2016/679 définit les données à caractère personnel (article 4, paragraphe 
1) comme 

« toute information se rapportant à une personne physique identifiée ou identifiable (ci-après 
dénommée “personne concernée”); est réputée être une “personne physique identifiable” 
une personne physique qui peut être identifiée, directement ou indirectement, notamment 
par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de 
localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à 
son identité physique, physiologique, génétique, psychique, économique, culturelle ou 
sociale. » 

La définition s’applique également au niveau de l’UE aux personnes non identifiées, mais 
qui peut être identifiée en mettant en corrélation des données anonymes avec d’autres informations 
supplémentaires. Les données personnelles, une fois anonymisées (ou pseudo-anonymisées), 
peuvent être traitées sans autorisation préalable, en tenant compte toutefois du risque de 
réidentification de la personne concernée. 


Les dimensions du big data 

Les données sont partagées et stockées sur des serveurs, via l’interaction entre l’entité 
impliquée et le système de stockage. Dans ce contexte, les big data peuvent être classés en systèmes 
actifs (interaction synchrone, les données d'entité sont envoyées directement au système de 
stockage) et passifs (interaction asynchrone, les données sont collectées par un intermédiaire, puis 
introduits dans le système. 
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De plus, les données peuvent être transmises directement consciemment ou non (si la 
personne dont les données sont transmises n’est pas notifiée de manière claire et en temps voulu). 
Les données sont ensuite traitées pour générer des statistiques. 

Selon la cible des analyses statistiques respectives, les dimensions des données peuvent 
être : a) individuelles (une seule entité est analysée); social (nous analysons des groupes d'entités 
distincts au sein d'une population; et hybrides (lorsqu'une entité est analysée en fonction de son 
appartenance à un groupe déjà défini). 

L'énorme production actuelle de données générées par les utilisateurs devrait augmenter de 
2000% dans le monde d'ici 2020 et est souvent non structurée. (Cumbley and Church 2013) En 
général, le big data est caractérisé par: 

• Volume (quantité de données) ; 

• Variété (produits de différentes sources dans différents formats) ; 

• Vitesse (rapidité d'analyse des données en ligne) ; 

• Véracité (les données sont incertaines et doivent être vérifiées) ; 

• Valeur (évaluée par analyse). 

Le volume de données produites et stockées évolue actuellement de manière exponentielle, 
plus de 90% d’entre elles ayant été générées au cours des quatre dernières années. (European 
Economie and Social Committee 2017) Les volumes importants nécessitent une analyse rapide, 
avec un fort impact sur la véracité. Des données incorrectes peuvent causer des problèmes 
lorsqu'elles sont utilisées dans le processus de décision. 

Un des problèmes majeurs du big data est de savoir si des données complètes sont 
nécessaires pour tirer certaines conclusions sur leurs propriétés, ou si un échantillon est suffisant. 
Big data contient dans son nom un terme lié à la taille, qui est une caractéristique importante du 
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big data. Cependant, l'échantillonnage (statistique) permet de sélectionner des points de collecte 
de données corrects parmi un ensemble plus large afin d'estimer les caractéristiques de la 
population entière. Le big data peut être échantillonné à travers différentes catégories de données 
lors du processus de sélection de l'échantillon à l'aide d'algorithmes d'échantillonnage pour le big 
data. 


La technologie 

Les données doivent être traitées avec des outils de collecte et d'analyse avancés, basés sur 
des algorithmes prédéterminés, afin d'obtenir des informations pertinentes. Les algorithmes 
doivent également prendre en compte les aspects invisibles pour les perceptions directes. 

En 2004, Google a publié un article sur un processus appelé MapReduce, qui propose un 
modèle de traitement parallèle. (Dean and Ghemawat 2004) MIKE 2.0 est également une 
application open source pour la gestion de l’information. (MIKE2.0 2019) Plusieurs études de 
2012 ont montré que l'architecture optimale pour traiter les problèmes liés au big data repose sur 
plusieurs couches. Une architecture parallèle distribuée distribue les données sur plusieurs serveurs 
(environnements d'exécution parallèle), ce qui améliore considérablement les vitesses de 
traitement des données. 

Selon un rapport publié par le McKinsey Global Institute en 2011, les principaux 
composants et écosystèmes du big data sont : (Manyika et al. 2011) des techniques d'analyse des 
données (apprentissage automatique, traitement du langage naturel, etc.), des grandes technologies 
(informatique décisionnelle, informatique en nuage, bases de données) et vues (charts, graphiques, 
autres vues de données). 

Les mégadonnées fournissent des informations en temps réel ou quasi réel, évitant ainsi le 
temps de latence autant que possible. 
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Applications 

Les mégadonnées dans les processus gouvernementaux augmentent la rentabilité, la 
productivité et l'innovation. Les registres d'état civil sont une source pour le big data. Les données 
traitées aident dans des domaines critiques du développement, tels que les soins de santé, l'emploi, 
la productivité économique, la criminalité, la sécurité et la gestion des catastrophes naturelles et 
des ressources. (Kvochko 2012) 

Big data fournit également une infrastructure permettant de mettre en évidence les 
incertitudes, les performances et la disponibilité des composants. Les tendances et les prévisions 
dans l'industrie nécessitent une grande quantité de données et des outils de prévision avancés. 

Le big data contribue à l'amélioration des soins de santé en fournissant des médicaments 
personnalisés et des analyses prescriptives, des interventions cliniques avec évaluation du risque 
et analyse prédictive, etc. Le niveau de données générées dans les systèmes de santé est très élevé. 
Cependant, la génération de « données altérées » pose un problème urgent, qui augmente avec le 
volume de données, d'autant plus que la plupart d'entre elles sont non structurées et difficiles à 
utiliser. L'utilisation du big data dans les soins de santé a généré d'importants défis éthiques, ayant 
des implications pour les droits individuels, la vie privée et l'autonomie, la transparence et la 
confiance. 

Dans les médias et la publicité, pour le big data sont utilisés de nombreux points 
d’information sur des millions de personnes pour servir ou transmettre des messages ou des 
contenus personnalisés. 

Dans le domaine de l'assurance maladie, des données sont collectées sur les « déterminants 
de la santé », ce qui aide à élaborer des prévisions sur les coûts de la santé et à identifier les 
problèmes de santé des clients. Cette utilisation est controversée, en raison de la discrimination 
des clients ayant des problèmes de santé. (Allen 2018) 
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Les mégadonnées et les technologies de l’information se complètent, aidant ensemble à 
développer l’Internet des objets (IoT) pour interconnecter des appareils intelligents et collecter des 
données sensorielles utilisées dans différents domaines. 

En sport, le big data peut aider à améliorer l'entraînement et la compréhension des 
compétiteurs à l'aide de capteurs spécifiques et à prédire les performances futures des athlètes. Les 
capteurs attachés aux voitures de Formule 1 collectent, entre autres choses, les données de pression 
des pneus pour rendre la consommation de carburant plus efficace. 

En recherche 

En science, les systèmes big data sont utilisés de manière intensive dans les accélérateurs 
de particules du CERN (150 millions de capteurs transmettent des données 40 millions fois par 
seconde, pour environ 600 millions de collisions par seconde, dont ils ne sont utilisés qu'après 
filtrage que 0,001% du total des données obtenues), (Brumfiel 2011) dans des radiotélescopes 
astrophysiques construits à partir de milliers d'antennes, décodant le génome humain (au départ, 
cela prenait quelques années, avec le big data peut être réalisé en moins d'une journée), des études 
climatiques, etc. 

Les grandes entreprises informatiques utilisent des entrepôts de données de l'ordre de 
plusieurs dizaines de pétaoctets pour la recherche, les recommandations et le marchandisage. La 
plupart des données sont collectées par Facebook, avec plus de 2 milliards d'utilisateurs actifs 
mensuels, (Constine 2017) et Google, avec plus de 100 milliards de recherches par mois. (Sullivan 
2015) 

Dans la recherche on utilise beaucoup l'interrogation cryptée et la formation de grappes 
dans le big data. Les pays développés investissent actuellement beaucoup dans la recherche sur le 
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big data. Au sein de l'Union européenne, ces recherches sont incluses dans le programme Horizon 
2020. (European Commission 2019) 

Les programmes de recherche utilisent souvent des ressources API de Google et Twitter 
pour accéder à leurs systèmes big data, gratuitement ou avec paiement. 

Les grands ensembles de données comportent des problèmes d’algorithme qui n’existaient 
pas auparavant et il est impératif de changer fondamentalement les méthodes de traitement. À cette 
fin, des ateliers spéciaux ont été créés. Ils réunissent des scientifiques, des statisticiens, des 
mathématiciens et des praticiens pour débattre les défis algorithmiques du big data. 
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